27 de abril de 2017

ACM/MCA

Objetivos de la sesión

  • Introducir de manera práctica el concepto de variable latente.
  • Identificar el problema que resuelve el ACM.
  • Implementar el Análisis de Correspondencias Múltiples con la función FactoMineR::MCA() en R.

Variables latentes

  • Hasta ahora en el curso hemos trabajado con un tipo de variables: las variables observadas.
    • Registran atributos directamente medibles de un objeto estadístico.
    • Ejp. respuestas a un ítem de un cuestionario.
  • Sin embargo, algunos conceptos centrales de las ciencias sociales no son directamente medibles.
    • El desarrollo, el gusto, la inteligencia (¿?).
  • Podemos inferirlos a partir de un set de variables observadas.
    • O considerarlos la causa del comportamiento de las variables observadas.

Tres abordajes para el análisis de variables latentes

Abordaje inferencial (SEM)

Abordaje causal (SEM)

Abordaje de reducción de la dimensionalidad (ACM)

El problema del Análisis de Correspondencias Múltiples

Análisis de datos categóricos

  • El primer abordaje es el análisis de tablas de contingencia.
    • Incluyendo las pruebas de bondad del ajuste con respecto a un modelo de independencia.
Rock/Salsa No
No 621 172
209 80
## Number of cases in table: 1082 
## Number of factors: 2 
## Test for independence of all factors:
##  Chisq = 4.256, df = 1, p-value = 0.0391

Con más categorías el análisis se hace más complejo.

Rock Salsa Pop Freq
No No No 490
131
No 84
88
No No 128
81
No 44
36

¿Por qué?

  • El número de dimensiones de la tabla es aumenta con cada variable.
  • El número de celdas cruzadas aumenta exponencialmente con el número de categorías.
    • En este ejemplo con 11 variables dicotómicas es 211: 2048 posibles combinaciones.1
    • Aunque no todas están observadas en un conjunto de datos empírico.
    • En nuestro ejemplo hay 219 patrones de respuesta diferentes.

Intentémoslo apoyados en un gráfico de mosaico, cortesía de Michael Friendly.

Sintáxis

vcd::mosaic(tabla, shade=T, main="Título")

Preferencias de géneros musicales

Como hacer una nube con una tabla.

La alquimia del ACM

Reducción de la dimensionalidad.

  • El problema de las tablas de contingencia multidimensionales es exactamente el gran número de dimensiones.
  • El ACM atiende ese problema reduciendo la dimensionalidad.
    • Identifica coordenadas principales que dan cuenta, en orden decreciente, de la mayor variabilidad posible de los datos.
  • Matemáticamente es la descomposición de valores singulares de la matriz de residuos \(\chi~2\).
    • Aunque hay varias formulaciones matemáticas del ACM.
    • Formulación geométrica. Como matriz de distancias.
    • Formulación correlacional. Como un problema de correlación canónica. ## El resultado es un sistema de coordenadas que "ordena" a las categorías y a los individuos por similitud/diferencia en varias dimensiones.

Dimensión 1. Activos e inactivos.

Rock Metal Pop Electronica Tradicional Cumbia Salsa Regaetton Trova Culta Romantica
1 No No No No No No No No No No No
2 No No No No No No No No No No No
3 No No No No No No No No No No No
4 No No No No No No No No No No No
5 No No No No No No No No No No No
1078 No No No No No No
1079 No No No No No No
1080 No No No No No No
1081 No No No No No No
1082 No No No No No No
Rock Metal Pop Electronica Tradicional Cumbia Salsa Regaetton Trova Culta Romantica
1 No No No No No No No
2 No No No No No No No
3 No No No No No No No
4 No No No No No No No
5 No No No No No No No No
1078 No No No No No No No
1079 No No No No No No No
1080 No No No No No No No No
1081 No No No No No No
1082 No No No No No No

Condiciones.

  • A diferencias de los lm el ACM no tiene supuestos distribucionales, pero tiene algunas condiciones que debemos atender.

  • Un conjunto de variables categóricas
    • En R codificadas con el tipo factor
  • Que, para un tema de interés, son:
    • Homogéneas.
      • Miden indirectamente un mismo atributo.
      • Que deberíamos definir previamente de manera teórica.
    • Exhaustivas.
      • Son suficientes para caracterizar el fenómeno o estructura de interés.
  • Preferentemente con una distribución balanceada: ninguna categoría tiene una n muy pequeña.

ACM en R con FactoMineR

  • Hay varias funciones para realizar ACM en R.
    • CA::mjca, MASS::mca, homals::homals(), FactoMineR::MCA()
  • Utilizamos FactoMineR::MCA() porque en conjunción con factoextra:: da las mejores salidas gráficas estandar.
  • CA::mjca implementa el Joint Multiple Correspondence Analysis.
    • Estima las mismas coordenadas, pero calcula con más precisión los valores propios (varianza explicada).
  • factoextra:: tiene funciones para graficar las cantidades de interés: nubes, varianzas explicada, contribución de las categorías.
    • De todos modos podemos extraer la información de objeto MCA y generar los gráficos.
  • Ninguna de estas funciones usa sintaxis de fórmula. :-(

Sintáxis de MCA()

MCA(data.frame, ncp=5, quali.sup=c(12, 13, 14)), graph=FALSE

  • Donde: data.frame es la estructura de datos que contiene las variables.
    • Deben ser del tipo factor.
  • ncp= es el número de dimensiones que conservamos. Por defecto 5.
  • quali.sup es un vector numérico con los números de índice de las columnas suplementarias, de las que hablare luego.
  • graph=FALSE para evitar que imprima el –inútil– gráfico por defecto.

Resultados

MCA() produce una lista de la clase MCA con toda la información del análisis.

Algunas cantidades de interés de un ACM
Cantidad de interés Uso
$eigen Varianza explicada por cada dimensión
$var$contrib Contribución de cada categoría a cada dimensión
$ind$contrib Contribución de cada individuos a cada dimensión
$var$coord Coordenadas de las categorías
$ind$coord Coordenadas de los individuos

¿Cuántas dimensiones interpretar?

## Nube de las categorías.

Nube de las categorías II..

Contribución de las categorías.

Categorías suplementarias.

  • Dado el criterio de homogeneidad no es apropiado incluir en el set de variables de interés.
    • "Deformarían" el sistema de coordenadas.
  • Para analizar la correspondencia entre las variables de interés y otras podemos incluirlas en el análisis como variables suplementarias.
    • Se mapean en el sistema de coordenadas de las de interés, pero tienen contribución 0 en su definición.
  • Podemos pensarlas, por analogía al lenguaje de lm, como variables independientes.
    • Aunque el ACM es completamente simétrico.

Variables sociodemográficas suplementarias.

Variables suplementarias (zoom)